Machine Learning Foundations - L4 Notes(上)

Contents

  1. 1. 一 Learning is Impossible?
    1. 1.1. No Free Lunch
  2. 2. 二 Probability to the Rescue
    1. 2.1. 用機率來推論
    2. 2.2. Hoeffding’s Inequality
    3. 2.3. 練習

章節名稱: feasibility of learning

一 Learning is Impossible?

No Free Lunch

在某些情況我們可能無法學習到東西,這邊舉了個例子,我們用在資料內的 $x_n$ 、 $y_n$ ,來驗證產生出來的 $g$ 是否近似於 $f$ ,但就算資料內的都相符了,我們仍然無法確定 $g$ 是否近似於 $f$ ,綜觀來看好像沒學到東西。
圖中 $f_n$ 我們並不知道,所以資料外 ($D$) 的 $y_n$ 我們自然無法得知,也就無法保證一定學到了甚麼東西。

但實際上這類可能才是我們想要的,利用已知的資料來達到預測資料外的結果。

通常我們無法只丟資料,然後去學,來得知資料外的事。 => No Free Lunch
除非加上一些假設。

4-1-1

二 Probability to the Rescue

用機率來推論

所以由剛剛來看,我們需要一些東西來對未知的 $f$ 做一些推論。

4-2-1

我們想要知道瓶子裡,橘色彈珠的比例佔多少,除了一顆一顆數要如何知道呢?
我們可以用機率來推論:

罐子裡橘色的機率為 : $\mu$ (未知)

隨機抓一把彈珠 => Sample
Sample 裡橘色的機率為: $\nu$ (已知)

則我們能利用 in-sample $\nu$ 來得知 out-of-sample $\mu$ 的一些資訊,

首先,無法知道 一定 有多少比例的橘色,比如抓一把結果全都是綠,但實際上裡面有橘色。
我們可以知道的是 可能 $\nu$ 和 $\mu$ 是很接近的。

Hoeffding’s Inequality

而數學上如何說明這件事呢?

4-2-2

結論上來說就是當 N 很大時,$\mu$ 和 $\nu$ 會很接近的機率很大。也就是 $\mu$ 和 $\nu$ 相差很大的機率很小,寫成數學則像是圖中那樣。(exp: 指數函數,$e^x$ )

PAC : 有很大的機會 差不多 是對的。

4-2-3

而在 Hoeffding’s Inequality 中,首先要有合理的 N 和 $\epsilon$ (容忍度) ,然後我們不需要知道 $\mu$。
當 N 或是 $\epsilon$ 越大時,圖中不等式右邊的值就越小。

練習

4-2-4

$$\epsilon = \mu - \nu = 0.3 \\ \Bbb{P}[ \vert \nu - \mu \vert \gt \epsilon ] \le 2 \times e^{(-2 \times {\epsilon}^2 \times 10)} \fallingdotseq 0.33$$

此答案對所有 $\mu$ 皆可以,有過度的空間(overestimate),也就是所謂的上限。

至於實際機率則要利用 $\mu$ 才能算出來,答案是 4 ,查了一下,算法如下:

首先 $\nu \le 0.1$ ,代表 所選的 10 顆內(Sample),有可能有 1顆(0.1)0顆(0) 橘的。
而在瓶子(Population) 內發生這樣的機率為:
($\mu$ 為挑到橘色的機率)

  • 0 顆橘的 ${(1-\mu)}^{10} = {0.6}^{10}$
  • 1 顆橘的 ${ 10 \choose 1 } \times {0.4}^1 \times {0.6}^9$

兩個相加:
${0.6}^{10} + { 10 \choose 1 } \times {0.4}^1 \times {0.6}^9 = 0.04635\ldots \fallingdotseq 0.05$